可深了 | 科学将人工智能拖下神坛【三】智能翻译极限的假想
引子
人工智能是科学的产物,是当今炙手可热面向未来的技术,它承载着人们对技术颠覆生活的下一个期盼和恐惧。本咨询师充分肯定人工智能技术将超乎我们想象的巨大价值和威力;同时,否定公众对之神化的不科学认识。
本咨询师注意到公众中的很多人已经将人工智能的能力大大的神化,超出了其在科学范畴内可能的能力,很多从事思想、智能性工作的人因此对职业前途产生了极大的不安全感。客观上,尽管人工智确实也会给不少思想、智能性工作岗位带来不同程度的冲击,这当中的很大一部分确属杞人忧天。
本咨询师籍此系列文章发表管见以抛砖引玉,希望我们能对人工智能这一科学的产物持有客观的认识,褪去神光,还其本来而面目。这样,有助于我们对人工智能给各行业带来的可能变革有一个更科学的预期,至少减少一些不科学的误判和烦扰。本咨询师将以最熟悉的专利代理行业为主要分析实例。本咨询师相信,这也是对人工智能健康发展的支持和爱护。
系列文章的前序文章:
第一篇,可深了 | 科学将人工智能拖下神坛【一】智能的本来面目,提出了一些基本观点;
第二篇,可深了 | 科学将人工智能拖下神坛【二】AlphaGo的失败,结合阿狗的案例,主要围绕深度学习继续阐释。
本篇开始切入到智能翻译,包括专利代理行业中的翻译,随后将引入信息论的思想,后续围绕神经网络、深度学习继续阐释。
之后的篇章在此基础上继续尝试主要以专利代理行业中的翻译、撰写、答复审查意见、侵权判定等专业工作为例进行讨论,争取就人工智能在可预见的未来对专利代理行业可能造成的冲击提出自己的认识。期望对其他行业也有启示。
剧透
本咨询师的多篇冗长分析将得出结论:智能翻译的能力极限恐怕会距离当今大众的乐观预期非常的远。其对低端翻译工作能够构成一定冲击,但对较为高端的翻译,例如专利申请文件的翻译,影响较为有限。
本咨询师认为,当今智能翻译已经取得了很大进步,但表现并不尽如人意,并且其现实的进步空间已经很小了:
如果完美翻译是1,在一般性翻译领域当前最优秀的智能翻译可能已经达到0.6,最终的理想极限可以达到0.8,而可以付诸实用的恐怕也就到0.7。对于具有更高要求的专业领域翻译,分数将更低。
01
不科学测试
先看热闹。
对于智能翻译或者机器翻译,本咨询师没有一手经验。不过本咨询师相信,将来,在英语外的其他外语需求下,本咨询师很可能需要智能翻译的支持。
既然讨论到智能翻译,当然要进行测试了。本咨询师必须先声明,因为自身能力和精力限制,不能提供科学、全面、严谨的测试,只好管中窥豹。
测试了三家:百度翻译、谷歌翻译,以及专注于知识产权专业领域的某某翻译。
从新闻报道、评论及各家自我宣传上可获知,百度翻译、谷歌翻译的翻译准确率均达到80%以上,甚至更高;而某某翻译所采用的智能技术和水准至少也不逊于上述两个著名翻译,且专门针对知识产权专业领域。
测试一
非专业普通测试,对象是百度翻译、谷歌翻译。因为某某翻译专注于知识产权领域,所以此轮测试中未将之拖下水。
本咨询师随手打开了最近写的文章,将其第一段作为测试题:
“一番亲历使在专利领域里浸淫了多年而原本对苹果兴趣了了的本咨询师赶紧补了课。可获得的资料颇为有限,但收获超出预期。苹果在专利策略上很独到:非常商业化,贴合自身情况,充分针对不同对手灵活调整,攻击性强,表现老到,从各个维度和层面都有丰富的配合。”
结果如下:
本咨询师感觉,首先,两者看起来确实采用了不同的智能技术或算法策略,从翻译的质量上看,都有严重硬伤,都未能较为准确地表达原文意思。小的语法问题暂且先忍下。
在第一句话上,百度小败,谷歌大败。本咨询师先要脸红一下,用错了字,但却搞成了个小小的容错测试:“兴趣寥寥”写成了“兴趣了了”。如果是由中国人来读,尤其注意了句子在语气和意思的转折和逻辑(关键词:而、赶紧)后,基本上不会有理解偏差:本咨询师对苹果没有兴趣。最多是心里暗笑一下:作者的语文真是没学好。
百度是按“兴趣了了”直译的,尽管从翻译角度上不能算错,但还是因此把原意搞拧了。本咨询师的“亲历”被安错了地方,苹果没有翻成苹果公司。机灵些的只看这一句就知道应当是苹果公司,不机灵的看到第三句也不应当有任何疑问了。谷歌把“了了”翻错了,并且干脆把苹果丢了。此外,这一句的主要意思无法正确解读:百度4分,谷歌3分。
第二句,结构较为简单清晰,不考虑语法小问题:百度9分,谷歌9分。
第三句,语法和表达上谷歌更顺溜、清晰,不过百度又显现了汉语主场优势:“老到”一词百度翻出来了,谷歌没有。第三句,勉强可以体会出原意的影子:百度6分,谷歌6分。
总评:百度6.3分,谷歌6分。
测试二
专利专业测试,对象是百度翻译、谷歌翻译、专注于知识产权领域的某某翻译。
本咨询师随手打开美国专利法第102条新颖性,摘了第一个分句:
(a) Novelty;Prior Art.—A person shall be entitled to a patent unless—
(1) the claimedinvention was patented, described in a printed publication, or in public use,on sale, or otherwise available to the public before the effective filing dateof the claimed invention; or
大家的表现如下:
本咨询师估计专注于知识产权领域的某某翻译并没有将美国专利法的核心法条“学习”到它的语料库里。
对于“新颖性”和“现有技术”这两个专用词,反倒是百度翻得最准。
语句翻译上,谷歌更顺一点,但三者对法条意思的表达完全错误或根本未能表达出来,即使对业余学习者也不可能有参考或帮助。结果如此,就不要难为本咨询师给它们打分了。
02
“智能翻译”策略介绍
如阅读此节内容有困难,建议直接跳至下节:“智能翻译”策略解读。(以下内容主要引自百度百科)
机器翻译翻译过程
整个机器翻译的过程可以分为原文分析、原文译文转换和译文生成3个阶段。在具体的机器翻译系统中,根据不同方案的目的和要求,可以将原文译文转换阶段与原文分析阶段结合在一起,而把译文生成阶段独立起来,建立相关分析独立生成系统。
在这样的系统中,原语分析时要考虑译语的特点,而在译语生成时则不考虑原语的特点。在研究多种语言对一种语言的翻译时,宜于采用这样的相关分析独立生成系统。也可以把原文分析阶段独立起来,把原文译文转换阶段同译文生成阶段结合起来,建立独立分析相关生成系统。
在这样的系统中,原语分析时不考虑译语的特点,而在译语生成时要考虑原语的特点,在研究一种语言对多种语言的翻译时,宜于采用这样的独立分析相关生成系统。还可以把原文分析、原文译文转换与译文生成分别独立开来,建立独立分析独立生成系统。
在这样的系统中,分析原语时不考虑译语的特点,生成译语时也不考虑原语的特点,原语译语的差异通过原文译文转换来解决。在研究多种语言对多种语言的翻译时,宜于采用这样的独立分析独立生成系统。
机器翻译知识型
目标是给机器配上人类常识,以实现基于理解的翻译系统,以Tomita提出的知识型机译系统为代表。知识型机译系统利用庞大的语义知识库,把源文转化为中间语义表示,并利用专业知识和日常知识对其加以精练,最后把它转化为一种或多种译文输出。
机器翻译语义型
研究重点是在机译过程中引入语义特征信息,以Burtop提出的语义文法和Charles Fillmore提出的格框架文法为代表。语义分析的各种理论和方法主要解决形式和逻辑的统一问题。利用系统中的语义切分规则,把输入的源文切分成若干个相关的语义元成分。再根据语义转化规则,如关键词匹配,找出各语义元成分所对应的语义内部表示。系统通过测试各语义元成分之间的关系,建立它们之间的逻辑关系,形成全文的语义表示。处理过程主要通过查语义词典的方法实现。语义表示形式一般为格框架,也可以是概念依存表示形式。最后,机译系统通过对中间语义表示形式的解释,形成相应的译文。
70年代以来,有些机器翻译者提出了以语义为主的第3类机器翻译系统。引入语义平面之后,就要求在语言描写方面作一些实质性的改变,因为在以句法为主的机器翻译系统中,最小的翻译单位是词,最大的翻译单位是单个的句子,机器翻译的算法只考虑对一个句子的自动加工,而不考虑分属不同句子的词与词之间的联系。第3类机器翻译系统必须超出句子范围来考虑问题,除了义素、词、词组、句子之外,还要研究大于句子的句段和篇章。为了建立第3类机器翻译系统,语言学家要深入研究语义学,数学家要制定语义表示和语义加工的算法,在程序设计方面,也要考虑语义加工的特点。
机器翻译基于统计
一般的基于语料库(Corpus-Based)的机译系统就是基于统计的机器翻译,因为这一领域异军突起,统计就是统计平行语料,由此衍生出许多不同的统计模型。
不同于基于规则的机译系统由词典和语法规则库构成翻译知识库,基于语料库的机译系统是以语料的应用为核心,由经过划分并具有标注的语料库构成知识库。基于语料库的方法可以分为基于统计(Statistics-based)的方法和基于实例(Example-based)的方法。
基于实例的机器翻译
与统计方法相同,基于实例的机器翻译方法也是一种基于语料库的方法,其基本思想由日本著名的机器翻译专家长尾真提出,他研究了外语初学者的基本模式,发现初学外语的人总是先记住最基本的英语句子和对应的日语句子,而后做替换练习。参照这个学习过程,他提出了基于实例的机器翻译思想,即不经过深层分析,仅仅通过已有的经验知识,通过类比原理进行翻译。其翻译过程是首先将源语言正确分解为句子,再分解为短语碎片,接着通过类比的方法把这些短语碎片译成目标语言短语,最后把这些短语合并成长句。对于实例方法的系统而言,其主要知识源就是双语对照的实例库,不需要什么字典、语法规则库之类的东西,核心的问题就是通过最大限度的统计,得出双语对照实例库。
基于实例的机器翻译对于相同或相似文本的翻译有非常显著的效果,随着例句库规模的增加,其作用也越来越显著。对于实例库中的已有文本,可以直接获得高质量的翻译结果。对与实例库中存在的实例十分相似的文本,可以通过类比推理,并对翻译结果进行少量的修改,构造出近似的翻译结果。
这种方法在初推之时,得到了很多人的推崇。但一段时期后,问题出现了。由于该方法需要一个很大的语料库作为支撑,语言的实际需求量非常庞大。但受限于语料库规模,基于实例的机器翻译很难达到较高的匹配率,往往只有限定在比较窄的或者专业的领域时,翻译效果才能达到使用要求。因而到目前为止,还很少有机器翻译系统采用纯粹的基于实例的方法,一般都是把基于实例的机器翻译方法作为多翻译引擎中的一个,以提高翻译的正确率。
机器翻译基于人工神经网络
2013年来,随着深度学习的研究取得较大进展,基于人工神经网络的机器翻译( Neural Machine Translation )逐渐兴起。其技术核心是一个拥有海量结点(神经元)的深度神经网络,可以自动的从语料库中学习翻译知识。一种语言的句子被向量化之后,在网络中层层传递,转化为计算机可以“理解”的表示形式,再经过多层复杂的传导运算,生成另一种语言的译文。实现了“理解语言,生成译文”的翻译方式。这种翻译方法最大的优势在于译文流畅,更加符合语法规范,容易理解。相比之前的翻译技术,质量有“跃进式”的提升。
目前,广泛应用于机器翻译的是长短时记忆(LSTM,Long Short-Term Memory)循环神经网络(RNN,Recurrent Neural Network)。该模型擅长对自然语言建模,把任意长度的句子转化为特定维度的浮点数向量,同时“记住”句子中比较重要的单词,让“记忆”保存比较长的时间。该模型很好地解决了自然语言句子向量化的难题,对利用计算机来处理自然语言来说具有非常重要的意义,使得计算机对语言的处理不再停留在简单的字面匹配层面,而是进一步深入到语义理解的层面。
代表性的研究机构和公司包括,加拿大蒙特利尔大学的机器学习实验室,发布了开源的基于神经网络的机器翻译系统GroundHog。2015年,百度发布了融合统计和深度学习方法的在线翻译系统,Google也在此方面开展了深入研究。
03
“智能翻译”策略解读
本咨询师是这样理解的:
我们有完美的字典、词典,但要将其升级成完美翻译,至少还要解决以下两个问题:
1. 如何在字典中对应原文词的众多不同的目标文词汇中筛选出正确的那条目标词;以及
2. 如何将众多正确的目标词正确地按目标文的语言习惯编调整排好,得出正确的译文。
解决好这两个问题,在原文的字、词各自意思之外,还须依靠原文整体表达中所包含的丰富信息。
用最简单的方式来讲,智能翻译所完成的本质上是照搬语料库中最相关的翻译模板,组合出译文。相对应,阿狗在所背的棋谱中找出局势最为接近的,根据它来确定应手。
当然,智能翻译实际上比“照搬语料库中相关的翻译模板”复杂一点,至少还应包括:
1. 按照一定指标来确定语料与待译原文的相关度;
2. 不同相关度的语料对翻译结果的塑造有不同权重的影响;
3. 不同相关度的语料对翻译结果的塑造可以分层次来配合,例如句式和词就是不同的层次:句式模板可以与一类词而不是具体某一个词相关联,进一步还可以与不同的词以不同的权重相关联。
也是为了提高翻译准确度,智能学习以大规模语料库,也就是大量的翻译实例为基础,类似于阿狗大量背棋谱。智能翻译机器按照人所制定的规则对语料进行指标采样和标定,对得出的指标数据进行统计、保存。智能翻译机器对需要翻译的原文按相同规则进行指标采样和标定,然后在语料库中选取指标表现较为相关的语料,提取相关语料翻译实例或模板。根据这些较接近语料的译文或模板,以指标统计结果也就是历史经验作为系数加权计算得出最优化的决策结果,以确定最优翻译结果。当中可能牵涉不同层次(例如句式和词)的协调调整。
为了使算法策略的准确度不断提高,智能翻译所采用的高大上办法是在神经网络下对大量语料进行智能学习和积累,在此基础上构筑大规模语料库。
神经网络的玄虚先按下不提,留待下篇讨论。无论多玄,本质上仍是多输入加权获得输出。
当今的智能翻译与前文中讨论过的当今其他智能技术一样,均以二进制计算技术为基础,只会依照现有规则进行机械执行,没有创造力,没有自主意识,也没有自主意识之下的真正的自学习能力,并不具有真正的智能。
04
死穴一:决策依据损失
目前常见的论调是:只要不断积累语料库,也就是阿狗背越来越多的棋谱,智能翻译的准确率就能不断提高,阿狗的棋艺也就不断提高;这个进步是没有止境的,即,智能翻译的准确率将无限接近完美,阿狗也将立于不败之地。
很遗憾,阿狗和智能翻译所面对的问题有质的区别,所以阿狗终将成功,智能翻译却不会。这是智能翻译的死穴之一。
在前文阿狗的讨论中,本咨询师提到:棋是计算技术最有利的战场,因为棋类博弈可以无损转化为算法、计算问题,而计算是计算技术的地盘。
关键词是“无损”。
借助信息论里的基本原理:简单信号系统不能表示复杂信号系统,反过来没有问题。举个简单例子:用一位二进制数表示不了一位十进制数,反过来没问题;用一个硬币正反两面的两个状态不能表示一个色子的六个面,反过来没问题。
当用简单信号系统来表示复杂信号系统时,没办法,必然要有信息损失。
阿狗的决策依据了无损的信息,而智能翻译的决策依据的是打了折的信息。
为什么打了折呢?因为对语料库的学习和利用并不是不丢失信息的完整学习,机器按照人制定的规则进行离散指标采样,对采样出的数据进行统计,将统计结果作为系数加权计算之后得出决策结果以完成翻译。理论上讲,设计者总结出来的指标越多,则越能覆盖更多的关键信息,决策结果越准确,然而这里面逾越不了的障碍很多。
提示:“人工智能”机器所交付的工作结果,仅是有时看起来与人智能工作得出的结果类似,但机器实际所用的操作流程与人的智能解决思路完全不一样。
人的智能很奇妙,威力也很神奇。人在做翻译时,对原文丰富的整体表达信息自如地进行着全方位、分层次、平滑地感知和处理,尽管有重点关注和利用的方面,而对相对次要信息恐怕也不是完全不加考虑。具体是如何利用的?用何种逻辑?用何种方法?我们无法说清楚,更无法完全地加以规则化算法化。
我们说不清楚,亦如阿狗之父承认的,他们没有办法将人类棋手的决策规则化来用到阿狗身上。翻译,在决策复杂性上比棋要高若干个维度,毕竟棋本质上是数学游戏,还能够无损转化成算法。
对于围棋这一数学游戏,阿狗用来筛掉不靠谱应手的粗筛策略也还不能保证可靠,都还存在漏洞。而在处理翻译这种复杂问题时,我们对采样指标的选取和分析过程已经对丰富而巨量的整体表达信息带来了根本性地损失。如果将人在翻译时所面对和依据的原文丰富的整体表达信息比作模拟彩色图片,智能翻译所面对和依据的,并且真正加以利用的信息,那些按规则离散指标采样和统计生成的数据,像是将彩色图片转换成数码黑白双色图。设计者总结出来更多的指标,设计更复杂的数据处理规则,所能达到的效果像是提高黑白双色图的像素数或数码精细度。仅靠扩大语料库或学习量的提升不能弥补自身方法方面的系统本质缺陷,也就不可能无限地提升性能。
当智能翻译基于损失到这种程度的信息来完成翻译时,我们还能抱有多高的预期呢?
提示:除了类似阿狗解决数学问题的情形,当要解决的问题越贴近思想或生活时,人工智能的决策和智能学习所利用的信息越是受深度损失,损失程度大体类似于从模拟彩色图片到不同分辨率的数字黑白位图。仅靠学习量的提升不能弥补自身方法方面的系统本质缺陷,也就不可能无限地提升性能。此所谓人工智能止步于思想之外。
05
智能翻译能力极限假想
本咨询师要提出这一假想:
如果完美翻译是1,人类高手可以达到0.999,或者可以无限趋近于1这一极限;当前最优秀的智能翻译在一般性翻译领域可能已经达到0.6,以当前计算技术为基础的智能翻译所能无限趋进的最高极限,大概在0.8。而对于有特别专业要求的翻译领域,极限位要比0.8低。
对于一般性翻译,如果当前的智能翻译从0达到0.6所付出的努力是10,那么从0.6提升到0.7所需要付出的努力,可能就要在10的3到10次幂;再向上,付出无穷大的努力,也只能趋进于0.8,而不可能达到或超过0.8。
只有真正的智能才能突破0.8。当今以二进制计算为基础的计算技术天生不具备这种能力,只有新的革命性智能技术出现才有可能。
当然会有不少人认为本咨询师的假想不科学。本咨询师先好好接着,暂且按下不表。其实“不科学”本身怕是“不科学”的,容后再议。
相应,按照当前的技术路径,可实现商业化的智能翻译所能达到的水平,应当在0.7左右,从现在已经达到0.6来看,提升的空间很有限了。
从0.8到1,便是必须依靠人的智能所走完的最后一公里。
06
预告
下篇文章将继续阐释智能翻译的死穴和能力极限:重点看神经网络是什么样的噱头,以及深度学习的能力局限。
(待续)
07
历史观点总结
关于真正的(人工)智能
智能并不排斥利用算法、程序、规则、逻辑,但智能的精粹在于不依照这些来解决问题的能力。(阐释于第二篇)
智能所必须的自主意识,意味着自我选择是否执行指令的能力。
智能,意味着在涉及智能、思想、创造性的工作中走完最后一公里的能力。当工作中涉及的智能、思想、创造性的程度比较深时,可能任务的全程只有1.5公里,或者更短。
项目 | 最后一公里占全程的比例 | 阐释文章 |
智能翻译(一般) | 20% | 阐释于本篇 |
关于当今的二进制“人工智能”或伪人工智能
不具备真正的自主意识、从而也不具备真正的自学习能力。(阐释于第一、二篇)
所谓智能决策仅只是众多输入项加权得到输出。经过再复杂的算法包装依然如此。(阐释于第一、二篇)
能力止步于思想之外。(阐释于第二篇,本篇继续阐释)
除了类似阿狗解决数学问题的情形,当要解决的问题越贴近思想或生活时,人工智能的决策和智能学习所利用的信息越是受深度损失,损失程度大体类似于从模拟彩色图片到不同分辨率的数字黑白位图。(本篇阐释)
智能学习,仅靠学习量的提升不能弥补自身方法方面的系统本质缺陷,也就不可能无限地提升性能。(本篇阐释)
没有棋谱作为答案的问题,阿狗所代表的深度学习解决不了。(阐释于第二篇)
“人工智能”机器所交付的工作结果,仅是有时看起来与人智能工作得出的结果类似,但机器实际所用的操作流程与人的智能解决思路完全不一样。(阐释于第二篇,本篇继续阐释)
机器没有智能或创造性,只能按步骤完成体力工作。(按照已有的预定步骤执行,可能做出世上没有的新东西,但这种成于已有方法的新东西也是在合理预期之内而没有突破、新意或创造性的。)设计这些精妙的步骤需要智能,这项工作只能由人完成的。机器的能力更强大,仅是因为计算技术的进步使机器可以执行更复杂的套路。(阐释于第二篇)
为什么二进制“人工智能”不能与智能同日而语
算法和程序有其局限性,只能解决一部分问题。而将思想、智能以算法、程序、套路来穷尽的想法是不切实际的,哪怕只将任务限定在仅涉及思想和智能灵动之魂的一个小领域。(阐释于第二篇)
我们的误区
对人工智能不科学的朴素认识,加上人对它的拟人化想象,是公众对人工智能产生不科学认识和想象的主要根源。对技术了解不全面也起了推波助澜的重要作用。(阐释于第二篇)
世间大量问题牵扯的因素太过复杂,与19X19小格子中的单纯算法规则下的问题有质的区别,即使我们看来依靠智能很简单就可解决的问题,也常常难以实现有效的算法或套路转化,这其中的难度通常被人大大的低估。(阐释于第二篇)
我们看低了智能的威力,看高了计算机的计算能力:智能的简单决策是每秒多少亿次计算能力下的穷举计算所望尘莫及的。(阐释于第二篇)
人工智能的出路
真正的人工智能终将实现,但须在二进制计算技术之外另辟革命性的新智能决策技术路径。
推荐阅读
可深了 | 科学将人工智能拖下神坛【二】AlphaGo的失败
硬见 | 技术与专利布局,iPhone X让苹果成为AI大赢家
用知识产权的眼光
看世界
欢迎原创投稿,稿件一经采用,支付稿费
投稿邮箱:iptree@iptalent.com